我们考虑培训具有非平滑正则化的深神经网络以检索稀疏有效的子结构的问题。我们的常规化器仅被认为是较低的半连续和限制的。我们将一种自适应二次正则方法与近端随机梯度原理相结合,以得出一个名为SR2的新求解器,该求解器的收敛性和最差的复杂性是在没有知识或近似梯度的Lipschitz常数的情况下建立的。我们制定了一个停止标准,以确保在某些条件下合适的一阶平稳性度量收敛到零。我们建立了$ \ mathcal {o}(\ epsilon^{ - 2})$的最坏情况的迭代复杂性,该$与Proxgen这样的相关方法匹配,其中学习率与Lipschitz常数有关。我们对在CIFAR-10和CIFAR-100进行培训的网络实例实验,并使用$ \ ell_1 $和$ \ ell_0 $正则化表明,SR2始终比Proxgen和Proxsgd等相关方法始终达到更高的稀疏性和准确性。
translated by 谷歌翻译